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摘要 : [目的 /意义 ] 面 对 高 校 信息 呈现 碎片 化 的 趋势 ,提出 高 校 信息 碎片 化 整合 流程 ,并 应 用 随机 森林 算 
法 构建 高 校 信息 碎片 化 整合 的 特征 选择 模型 。[ 方法 /过程 ] 基 于 高 校 信息 整合 的 发 展现 状 与 存在 问题 ,分析 随 
机 森林 算法 原理 及 优势 ,将 其 运用 到 高 校 信息 碎片 化 整合 过 程 的 特征 选择 模型 中 ,并 以 高 校 贫困 生 认 定 为 例 ， 
对 该 模型 加 以 验证 。[ 结果 /结论 ] 随机 森林 算法 在 高 校 信息 整合 特征 选择 上 表现 出 较 高 的 准确 性 和 有 效 性 ,为 
高 校 信息 碎片 化 整合 提供 了 一 种 新 的 思路 。 

关键 词 : 随机 森林 ”碎片 化 ”信息 整合 ”特征 选择 

分 类 号 : G203 


号 DOI:10. 13266/j. issn. 0252 -3116. 2018.07. 014 


挖掘 和 机 器 学 习 算法 。 常 桐 善 ” 认 为 数据 挖掘 技术 能 


二 oo 全 fy 在下 [的 计生 得 沿 我国。， 萎 且 大 学 管理 人 员 更 好 地 分 析 数 据 ,从 而 效法 的 、 
也 自 从 建设 快 训 人 居 。 维 由 高校 信息 化 建设 的 发 。 有 用 的 信息 和 知识 ,最 终 提高 决策 效率 。 庆 风 需 、 轩 
HI|5 ,已 \ LX I 信 在 o LI 日 心 \ Lx HH, 5] 间 开 又 十 全 所 训 P 全 wd 

本 可 以 将 高 校 信息 化 吾 合 过 程 划分 为 3 个 阶段 ， 。 庆 ， 池 用 林 素 贝 叶 斯 模型 对 学 生 的 就 业 能 力 进 行 
括 SM 忆 的 叉 全 阶段 是 于 信息 的 整合 阶段 和 基于 知 。 测 ,为 学 生 的 就 业 工作 提供 帮助 。 施 从 . 钱 源 和 孙 玲 ” 
9 好 人 阶段 1。 在 高 校 位 自 化 建设 之 初 为 了 满 。 将 关联 规则 算法 和 聚 类 算法 等 数据 挖掘 技 术 运用 到 网 
足 注 一 部 门 的 信息 需求 ,建立 了 一 个 个 相互 独立 的 信任 学 习 的 监管 中 ,为 了 解 网 络 学 习 效果 ,改进 网 络 学 习 
各 尝 统 。 随 着 “位 自 孤 阜 "的 形成 高校 异 构 信 自 系统 。 “过程 提供 参考 。 舒 忠 梅 . 徐 晓 东 中 利用 逐步 回归 和 决 


的 集成 问题 逐步 受到 重视 。 基于 数据 的 整合 这 一 阶段 策 树 分 析 等 数据 挖掘 方法 对 大 学 生 满意 度 进 行 分 析 » 
的 多 要 目的 是 利用 中 间 件 及 数据 仓库 等 技术 ,通过 消 。 深究 了 影响 字 生 消音 度 的 因素 ,为 高 校 人 二 省 养 提供 
除 殿 统 的 分 布 性 和 异 构 性 ,实现 异 构 信息 系统 数据 的 。 了 参考 依据 。 何 世 明 \ 沈 军 ” 利用 BP 神经 网 络 和 到 类 


统 昌 存储 。 基 于 信息 的 整合 是 在 数据 集成 的 基础 上 发 。 分 析 技 术 , 通 过 挖掘 隐藏 在 数据 中 有 用 的 规律 和 知识 ， 


展 而 来 的 ,这 一 阶段 主要 从 业务 需求 的 角度 出 发 ,通过 ”提出 了 一 个 适合 网 络 教 学 的 学 习 评 价 方法 ,为 教学 评 
企业 架构 等 方式 整合 满足 某 一 业务 流程 的 信息 资源 ， 。 佑 提供 决 策 支持 。 刘 美玲 , 李 嘉 和 李 永 胜 ” 提 出 了 一 
实现 异 构 信 息 系统 之 间 信 息 交 流 与 共享 。 但 随 着 云 计 ” 种 基于 K-Means 算法 的 成 绩 聚 类 分 析 方法 ,以 说 明 数 


算 ,移动 互联 网 , 物 联网 等 技术 的 应 用 ,高 校 信息 系统 ，” 据 挖掘 技术 在 教育 系统 中 的 应 用 。 
数据 呈 指 数 增长 , 正 逐 步 进入 “大 数据 "时代, 基于 知 纵 观 目前 在 高 校 数据 挖掘 领域 的 所 有 研究 ,不 管 


上 


识 的 整合 阶段 除了 要 实现 对 海量 多 源 异 构 数据 的 共享 ” 是 决策 树 ,神经 网 络 还 是 关联 、 取 类 算法 都 存在 以 下 问 
外 ,还 要 充分 挖掘 其 潜在 价值 ,实现 知识 集成 及 创新 ，“” 题 :四 数据 挖掘 算法 仅仅 运用 到 部 分 教育 问题 ,如 教学 
从 而 为 用 户 管理 决策 提供 支持 与 帮助 。 评 佑 ,学习 效率 监督 等 , 即 算法 模型 仅 能 解决 某 一 个 或 

目前 ,实现 基于 知识 的 信息 整合 主要 是 利用 数据 。 一 类 问题 ,并 不 具有 很 强 的 通用 性 和 推广 性 ;@@ 现 有 的 
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教育 数据 挖掘 算法 的 精度 .效率 和 实现 复杂 度 都 有 待 
提高 , 旦 对 数据 要 求 较 高 ,在 实际 应 用 中 存在 一 定 阻 
力 。 

本 文 应 用 随机 森林 (Random Forest,RF ) 算 法 , 充 
分 利用 其 良好 的 泛 化 性 和 重 棒 性 、 对 噪声 不 敏感 ,精度 
和 准确 性 高 的 优点 ,构建 基于 随机 森林 的 整合 特征 选 
择 模型 ,并 对 高 校 贫困 生 认定 数据 进行 实验 分 析 , 验 证 
基于 随机 森林 算法 的 高 校 信息 整合 特征 选择 模型 的 有 
效 性 和 准确 性 ,以 期 更 好 地 进行 高 校 信息 整合 ,并 提供 
个 性 化 决策 支持 。 


高 校 信息 碎片 化 整合 流程 


2.1 ”高校 信息 碎片 化 整合 
放 随 着 高 校 信息 化 建设 的 逐步 实施 ,各 大 高 校对 于 
信息 整合 也 做 了 很 多 有 益 的 实践 探索 ,如 南京 农业 大 
党 利用 企业 架构 理论 ,搭建 校园 信息 化 应 用 架构 平台 ， 
低 胃 于 大 数据 时 代 的 到 来 ,高校 信 息 逐 步 趋 于 碎片 化 ， 
而 吏 有 的 信息 整合 体系 存在 动态 可 扩展 性 差 . 难 以 提 
供 全 性 化 决策 支持 等 问题 。 同 时 , 面 对 信 息 碎片 化 的 
影 员 ,高校 在 学 科 建 设 . 科 研 管理 ,学 生 管 理 等 诸多 广 
耐克 在 不 足 , 导 致 部 门 协同 不 够 .目标 指向 各 异 .管理 
效 苑 不 高 等 一 系列 问题 。 因 此 ,本 研究 定义 一 种 * 知 识 
砍 启 " , 即 通 过 对 结构 化 半 结 构 化 和 非 结构 化 的 数据 
进 知 “ 碎 片 化 "整合 ,得 到 的 学 校 信 息 服 务 中 最 小 颗粒 
克 租 知识 片段 ”。 当 用 户 提出 需求 ,我 们 只 需 分 解读 
需求 的 关键 特征 ,根据 特征 对 “知识 碎片 "抽取 和 整 
合 -形成 可 视 化 的 查询 结果 并 以 报告 的 形式 提交 给 用 


户 @) 这 种 信息 碎片 化 整合 方式 可 以 有 效 弥 补 现 有 高 校 
整合 系统 可 扩展 性 差 .自主 能 力 弱 、 信 息 利 用 率 低 的 缺 
陷 。 
2.2 高 校 信息 碎片 化 整合 流程 

针对 信息 碎片 化 的 用 户 需求 ,本 研究 提出 高 校 信 
息 碎 片 化 整合 流程 ,该 整合 系统 主要 分 两 部 分 ,一 部 
分 是 信息 整合 过 程 , 另 一 部 分 是 用 户 访 问 过 程 。 见 
图 1。 
2.2.1 信息 整合 过 程 ” 信 息 整 合 过 程 主要 针对 高 校 
众多 异 构 数据 库 , 如 人 事 管 理 系统 .教务 管理 系统 .学 
工 管理 系统 .科研 管理 系统 .财务 管理 系统 .资产 管理 
系统 以 及 一 卡通 系统 等 ,获取 这 些 系 统 中 大 量 的 结构 
化 . 半 结 构 化 和 非 结构 化 的 数据 ,并 通过 统一 的 碎片 化 
处 理 , 将 其 转化 成 “知识 碎片 ”的 形式 ,并 存储 在 知识 
碎片 共享 池 中 ,实现 高 校 资 源 的 碎片 化 整合 。 
2.2.2 用 户 访问 过 程 ”， 用 户 访问 过 程 主要 根据 用 户 
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图 1 高 校 信息 碎片 化 整合 流程 


提出 的 需求 ,查询 历史 需求 特征 库 ,判断 是 否 存 在 相同 
需求 的 特征 集合 , 若 存在 , 则 根据 历史 特征 需求 集合 向 
知识 碎片 共享 池 中 提取 相应 特征 的 “知识 碎片 ”, 知 不 
存在 , 则 需要 利用 基于 随机 森林 的 特征 选择 模型 提取 
满足 需求 的 特征 集合 ,再 根据 特征 集合 提取 相应 的 “ 知 
识 碎片 ”, 最 终 将 符合 需求 特征 的 “知识 碎片 "加 以 整 
合 , 以 可 视 化 的 形式 反馈 给 用 户 。 

因而 ,对 于 高 校 信息 碎片 化 整合 系统 而 言 ,其 核心 
在 于 高 校 信息 整合 特征 的 选择 过 程 , 选 择 的 特征 准确 
性 和 有 效 性 越 高 , 则 整合 结果 越 具 有 可 信和 度 和 说 服 力 。 
而 随机 森林 作为 一 种 新 型 集成 分 类 器 ,具有 训练 样本 
数量 需求 少 .人 工 干预 少 . 分 类 精度 高 等 优点 … ,可 以 
处 理 高 维 数据 并 快速 得 到 分 类 结果 ,可 满足 高 校 信息 
碎片 化 整合 的 需要 。 因 此 ,高 校 信息 碎片 化 整合 系统 
可 以 有 效应 用 到 学 科 建 设 .科研 管 理 和 学 生 管 理 等 工 
作 中 ,实现 "知识 碎片 "的 集成 及 创新 ,从 而 为 用 户 管 
理 决 策 提 供 支 持 与 帮助 。 


3 ”基于 随机 森林 的 高 校 信息 碎片 化 整合 


特征 选择 模型 构建 


3.1 随机 森林 算法 

随机 森林 是 由 美国 学 者 L. Breiman 于 2001 年 提出 
的 一 个 具有 良好 分 类 性 能 的 机 器 学 习 算 法 ,其 基本 思 
想 是 通过 Bagging 方法 有 放 回 的 随机 抽取 不 同 的 训练 
样本 集 ,并 对 每 个 抽样 样本 构建 相应 的 决策 树 , 从 而 形 
成 随机 森林 模型 。 随 机 森林 由 一 组 决策 树 分 类 器 
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(x,0;) ,b=1,2,…,n| 组 成 ,其 中 每 个 决策 树 分 类 器 
中 的 0, 是 独立 同 分 布 的 随机 变量 ,用 来 控制 每 一 个 决 
策 树 分 类 器 的 增长 ,变量 代表 决策 树 分 类 器 的 数量 ， 
变量 x 代表 输入 的 训练 集 样本 数 ,每 个 决策 树 分 类 器 
根据 输入 的 训练 样本 集 产生 分 类 结果 ,最 终 通过 投票 
原则 确定 训练 样本 类 别 !” 。 
随机 森林 算法 的 核心 就 是 在 训练 过 程 中 引入 了 随 
机 性 的 思想 。 随 机 性 的 引入 ,可 以 降低 各 个 决策 树 之 
间 的 相关 度 , 从 而 提高 随机 森林 的 泛 化 性 能 ,避免 模型 
出 现 过 拟 合 的 现象 。 随 机 森林 的 随机 性 主要 体现 在 两 
个 方面 :随机 的 训练 样本 子 集 和 随机 的 特征 子 空间 。 
随机 的 训练 样本 子 集 即 采用 bagging 方法 从 样本 中 有 
放 回 地 随机 抽取 个 与 原样 本 集 同 样 大 小 的 训练 样本 
篇 5 这 样 可 以 保证 初始 训练 集中 约 有 63% 的 样本 出 现 
在 移 本 集中 。 随 机 的 特征 子 空间 即 在 对 决策 树 每 个 节 
二 证 行 分 列 时 ,从 全 部 属性 中 等 概率 随机 抽取 一 个 必 
性 巴 集 ,通常 取 值 为 Vi 个 特征 数 ,M 为 总 特征 个 数 ,每 
痰 网 这 个 子 集中 选择 一 个 最 优 属性 对 当前 节点 中 的 秋 
然 委 本 进行 分 裂 "9 。 
由 于 生成 决策 树 的 过 程 是 独立 的 ,因而 随机 森林 
咎 济 可 并 行 化 处 理 ,同时 其 分 类 精度 高 .训练 速度 快 
古山 能 有 效 克 服 过 拟 合 问题 ,还 能 够 评价 特征 重要 程 
吕  。 因 此 ,随机 森林 算法 适用 于 高 校 信息 碎片 化 
过 程 中 的 特征 选择 。 
3. 例 特征 的 重要 度 计算 
.三 由 于 随机 森林 算法 选择 的 特征 是 完全 随机 的 , 即 
每 全 特征 被 选中 的 概率 完全 相等 , 故 认为 每 个 特征 对 
于 百 标 需求 的 重要 性 相同 。 但 在 高 校 信息 碎片 化 整合 
过 程 中 发 现 大 量 的 特征 增加 了 模型 的 复杂 度 , 并 且 对 
整合 结果 无 明显 影响 ,也 就 是 说 ,实际 上 每 个 特征 对 于 
不 同 整合 需求 的 重要 度 是 不 同 的 ,对 节点 分 裂 影响 也 
不 同 。 因 此 需要 在 保证 整合 结果 准确 率 的 基础 上 , 通 
过 特征 重要 度 计算 ,筛选 出 重要 度 较 高 的 特征 从 而 进 
行 整合 。 
随机 森林 的 特征 重要 性 评分 统计 量 计算 有 根据 
Gini 指数 和 袋 外 数据 (00B ) 错误 率 两 种 方式 "中 :， 
本 研究 根据 Gini 指数 计算 特征 重要 度 。 设 一 组 随机 
变量 x ,x,，,…,x, 则 变量 % 的 得 分 统计 量 用 Te 
表示 ,其 含义 为 第 7 个 变量 在 随机 森林 的 所 有 决策 树 
中 节点 分 裂 不 纯度 的 平均 改变 量 。VIM'% 的 计算 过 
程 如 下 : 

节点 的 Gini 指数 为 ; 


GL, = EP,a(l -Pu) 公式 (1) 
其 中 为 样本 集 的 类 别 数 ,P, 为 节点 茵 样本 属于 
第 类 的 概率 估计 值 。 
变量 % 在 节点 m 的 重要 度 为 ; 


公式 (2) 
其 中 G7,、G1, 分 别 表示 由 节点 m 分裂 的 两 个 新 节 
点 的 Gini 指数 。 

如 果 变 量 % 在 第 i 棵 树 中 出 现 必 次 , 则 变量 % 在 
第 i 棵 树 的 重要 性 为 : 


MM 要 
TI ”， 三 SVM 公式 ( 3 ) 
变量 % 在 随机 森林 中 的 Gini 重要 度 为 : 
ini Li pini » 
TO ”= 三 二 TD 公式 (4) 


其 中 为 随机 森林 中 决策 树 的 数量 
3.3 ”特征 选择 性 能 的 评价 指标 

关于 分 类 预测 问题 ,常用 的 评价 指标 有 查 全 率 、 查 
准 率 和 分 类 精度 等 。 针 对 本 研究 中 的 整合 特征 选择 模 
型 ,同样 定义 这 样 一 组 评价 指标 '” :算法 的 召回 率 
(Rec) ,算法 的 精确 率 (Pre) .算法 分 类 结果 的 准确 率 
(Acc) 和 AUC( 曲 线 下 roc 图 的 面积 ,area under roc 
curve ) 。 

假设 TP 代表 实际 为 正 类 且 被 确认 为 正 类 的 个 数 ， 
FP 代表 实际 为 负 类 却 被 确认 为 正 类 的 个 数 ,FN 代表 
实际 为 正 类 却 被 确认 为 负 类 的 个 数 ,TN 代表 实际 为 负 
类 且 被 确认 为 负 类 的 个 数 , 则 : 

算法 的 召回 率 为 : 


Rre = 


O 


TP 
TP +FN 


表示 正 样本 被 正确 分 类 占 正 样 本 的 比例 。 
算法 的 精确 率 为 : 


Pre 


公式 (5 ) 


TP 、 
“TP +EP 0 
表示 正 样本 被 正确 分 类 占 被 分 类 为 正 样本 的 比 
例 。 
算法 的 分 类 准确 率 为 ， 
TP+TN 
TP+TN+FP+FN 公式 (7) 


表示 所 有 样本 被 正确 分 类 的 比例 ,该 指标 用 来 衡 
量 总 体 分 类 的 准确 度 ,Acc 值 越 高 则 分 类 效果 越 好 。 

男 外 ,由 于 高 校 信息 整合 所 采用 的 样本 数据 通常 
正 负 比例 不 平衡 ,所 以 需要 同时 将 AUC 作为 模型 的 评 
估 指 标 之 一 ”” ,其 计算 公式 为 : 


Acc 
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Sraonk YM+LD 
jh 公式 (8) 


其 中 ,M 为 正 类 样本 的 数量 ;N 为 负 类 样本 的 数 


AUC = 


三 
里 


本 研究 使 用 K 折 交 叉 验 证 “的 方法 来 估计 分 类 
精度 ,即将 完整 的 数据 集 分 成 大 致 相等 的 K 个 子 集 ,每 
次 轮流 使 用 不 同 的 (K -1) 个 子 集 训练 模型 ,余下 的 一 
个 子 集 测 试 模型 ,反复 进行 K 次 运算 ,最 终 将 得 到 的 评 
价 指标 均值 作为 该 选择 特征 的 指标 估计 值 。 

3.4 基于 随机 森林 的 整合 特征 选择 模型 设计 
基于 随机 森林 的 高 校 信息 碎片 化 整合 特征 选择 模 
型 ,主要 由 3 个 模块 构成 :特征 提取 模块 .训练 模块 和 


困 程 度 , 如 何 控制 人 为 主观 因素 的 影响 以 及 如 何平 衡 
贫困 生 认 定 过 程 的 公开 性 和 学 生 隐 私 的 保密 性 问题 
等 中 。 本 实验 以 高 校 贫困 生 认 定 为 例 , 验 证 随机 森林 
在 高 校 信息 整合 的 特征 选择 过 程 中 的 准确 性 及 有 效 
性 。 

实验 数据 来 源 于 某 校 某 一 年 级 430 名 学 生 , 包 括 
学 生 基 本 信息 表 、 学 生 家 庭 情 况 表 、 学 生 消 费 情况 表 、 
学 生 贷 款 情 况 表 、 学 生 勤 工 助 学 表 以 及 学 生 困难 认定 
! 请 表 等 信息 。 数 据 集 中 正确 判断 学 生 为 贫困 生 的 样 
本 数量 记 为 TP, 正确 判断 学 生 不 是 贫困 生 的 样本 数量 
为 TN, 学 生 本 身 为 贫困 生 但 判断 不 是 贫困 生 的 样本 数 
量 记 为 FP ,学 生 本 身 不 是 贫困 生 但 判断 是 贫困 生 的 样 


ee orga 本 数量 记 为 FN。 

a a 在 实验 过 程 中 采用 十 折 交 又 验证 的 方 
> 引入 本 训 试 本 法 ,即将 数据 集 划分 为 训练 集 和 测试 集 ,其 
全 上 林 人 中 训练 集 占 总 数据 的 90% ,用 来 设计 和 构造 
OO ,ont | | -| 随机 森林 算法 ,其余 10% 作为 测试 集 ,用 来 
© Ra Ce 测试 样本 检测 算法 的 性 能 。 

tO ee 4.2 ”贫困 生 认定 特征 的 重要 度 排序 

号 图 2 基于 随机 森林 的 整合 特征 选择 模型 利用 随机 森林 模型 构建 200 棵 决策 树 
SO 进行 贫困 生 认定 的 特征 选择 ,选择 相关 特征 
Cm 并 根据 Gini 指数 进行 重要 度 计算 , 取 阐 值 = 27 , 按 重 


答 重 征 提取 ,形成 所 有 特征 的 集合 ,再 根据 Cini 指数 
计算 所 有 特征 的 重要 度 , 按 从 高 到 底 的 顺序 对 所 有 特 
德 表 行 排序 。 由 于 大 量 特征 向 量 不 仅 对 整合 结果 没有 
影响 ,而 且 还 提高 了 模型 的 复杂 度 ,因此 ,需要 设 定 一 
个 里 值 入 ,将 排序 结果 与 所 选 阐 值 进 行 比较 ,选取 前 入 
个 竹 征 向 量 构成 优化 的 特征 集合 进行 训练 。 

3 .各 训练 模块 “该 模块 主要 将 特征 提取 模块 生成 
的 优化 特征 集合 输入 训练 模块 ,抽样 一 部 分 数据 作为 
待 训练 样本 ,其 余 的 作为 测试 样本 。 在 训练 样本 上 进 
行 随机 森林 分 类 模型 的 创建 ,最 终 形成 随机 森林 的 决 
策 树 集合 。 
3.4.3 ”测试 模块 “该 模块 将 测试 样本 输入 训练 后 的 
决策 树 集 ,得 出 该 特征 集合 的 分 类 结果 ,并 通过 计算 评 
价 指标 评价 分 类 结果 的 精度 ,以 此 来 确定 特征 选择 的 
优 劣 。 最 终 根 据 评价 指标 的 最 优 结果 确定 整合 特征 的 
个 数 ,并 形成 最 优 特征 集合 。 

4.1 实验 背景 及 数据 说 明 


我 国 高 校 贫 困 生 认定 过 程 存 在 很 多 困难 , 如 无 法 
判断 在 众多 学 生 贫困 指标 中 ,哪些 指标 能 反映 学 生 贫 
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要 度 排 序 取 前 27 个 特征 形成 特征 集合 ,其 特征 描述 及 
重要 度 见 表 1。 
4.3 实验 结果 

大 量 文献 表明 ,特征 数量 并 非 越 多 越 好 。 特 征 数 量 
过 多 不 仅 对 整合 结果 没有 影响 ,而且 还 提高 了 模型 的 复 
杂 度 。 整 合 特征 选择 模型 的 目的 在 于 通过 样本 数据 的 
学 习 , 找 到 满足 用 户 需 求 的 整合 特征 的 最 优 集合 ,从 而 
使 得 整合 结果 更 加 可 靠 。 因此, 我们 需要 通过 对 不 同 特 
征 数量 下 的 模型 精度 进行 比较 ,并 找到 最 优 的 整合 特征 

合 。 实 验 分 别 选取 3.6.9、12、15 .18 .21 .24 27 个 特征 

向 量 进行 训练 ,计算 指标 评估 结果 如 图 3 所 示 : 

全 


0.95 
09 

0.85 
0.8 x 


引入 变量 数 


一 和 Acc —-Rec —#—Pre —®—AUC 


3 评估 指标 比较 情况 


张 文 德 , 程 涵 , 刘 田 ,等 . 随机 森林 在 高 校 信 ， 


人 人/ 
Ch inax | IV 合 | 


筷 碎 片 化 整合 中 的 应 用 [J]. 图 书 情报 工作 ,2018 ,62(7) :119 -124. 


表 1 贫困 生 评 定 特征 重要 度 排 序 


特征 序号 特征 特征 描述 重要 度 
jl family_income 家 庭 月 收入 1.0051E.01 
炙 isDisabled 是 否 为 孤 残 8.5436E-02 
3 isHeavySick 有 无 重 危 病人 6.0030E.02 
4 loan_amount 贷款 金额 5.2865E -02 
5 isLowIncome 是 否 为 低 保 户 5.0087E.02 
6 month_consum 平均 月 消费 金额 4.9823E.02 
7 isPoorPlace 是 否 来 自 贫 困 地 区 4.8374E -02 
8 isMakeUp 是 否 补考 4.7693E.02 
9 haveDearConsume 有 无 奢侈 消费 4.6351E.02 
10 haveBigDisaster 是 否 遭 遇 重大 灾害 4.5714E.02 
11 family_number 家 庭 人 口 总 数 4.2302E.02 
12 numberInSchool 家 庭 在 上 学 人 数 4.0310E.02 
13 IsApplyPoorStudent 是 否 申请 贫困 生 3.9964FE-02 
14 isWorking 是 否 勤 工 助 学 2. 8399E.02 
3 monthWorkingIncome 月 助学金 额 2.8120E-02 
major_ranking 专业 成 绩 排名 2.7384E.02 
health_condition 健康 状况 2.7097E.02 
isSingleParent 是 否 单亲 2.6133E.02 
isMartyrChild 是 否 烈士 子女 2.4649E .02 
healthcondition_parents 父母 健康 状况 2.3208E.02 
loan_timeLimit 贷款 期 限 2.1444E -02 
course_credit 学 分 2.0467E..02 
class_job 担任 职务 1.7513E-02 
birthplace 生源 地 1.7214E-02 
working_class 助 学 种 类 1.0617E-02 
isfromCountry 是 否 农 村 户口 1.0609E .02 
人 isActive 是 否 参 与 活动 7.6888E.03 


向 量 个 数 小 
于 个 时 ， 精确 率 Acc .召回 率 i 前 开 Pre 及 AUC 
价 较 大 幅度 的 变化 ,大 于 9 个 特征 向 量 后 ,各 指标 开 
始 种 于 稳定 ,特征 向 量 大 于 15 个 时 ,AUC 开始 降低 。 
通过 对 评估 指标 比较 图 中 各 评估 指标 在 引入 特征 数量 
不 同时 的 表现 可 知 ,并 不 是 引入 的 特征 向 量 越 多 ,模型 


合 ,其 准确 率 、 召 回 率 、 精 确 率 以 及 AUC 都 表现 优异 ， 


说 明 该 特征 集合 能 够 很 好 的 为 高 校 贫困 生 认 定 工作 提 
共 参 考 依据 。 
5 结语 


本 研究 提出 高 校 信息 碎片 化 整合 思想 , 即 根据 某 


的 拟 合 效 果 和 预测 结果 就 更 好 ,因此 ,有 必要 对 特征 向 
量 进行 选择 。Q@AUC 在 9 -15 个 特征 向 量 时 分 类 结果 
最 优 ,AUC 高 达 75% ,Acc .Pre 都 在 80% 以 上 ,Rec 高 
达 95% 。 本 次 实验 提取 出 12 个 最 重要 的 特征 变量 ,得 
出 较为 满意 的 评价 结果 ,最 优 特征 集合 评价 指标 如 表 
2 所 示 : 


表 2 最 优 特征 集合 的 评价 指标 
准确 率 ( Ace)/% 
83. 5443 


召回 率 (Rec)/% 
98. 4848 


精确 率 ( Pre)/% 
84.4156 


AUC 


75. 1943 


综 上 所 述 ,针对 高 校 贫困 生 认定 问题 ,可 根据 家 庭 
月 收入 ,是否 为 孤 残 有 无 重 危 病人 、 贷 款 金额 .是 否 为 
低 保 户 .平均 月 消费 金额 .是否 来 自 贫 困 地 区 是否 补 
考 `\ 有 无 奢侈 消费 ,是否 遭遇 重大 灾害 家庭 人 口 总 数 
以 及 家 庭 在 上 学 人 数 等 12 个 特征 进行 信息 碎片 化 整 


业务 需求 ,选择 满足 需求 的 特征 集合 ,根据 最 优 的 特 
征集 合 对 知识 雁 片 进行 整合 ,从 而 构建 了 高 校 信息 碎 
片 化 整合 流程 。 高 校 信息 碎片 化 整合 流程 的 核心 在 于 
如 何 选择 最 优 的 整合 特征 , 而 随机 森林 良好 的 泛 化 性 
和 重 棒 性 、 对 噪声 不 敏感 .能 处 理 连 续 属 性 的 特点 ,很 
适合 用 来 构建 高 校 信息 整合 特征 选择 模型 。 因 此 ,本 

研究 结合 随机 森林 的 优势 ,构建 了 基于 随机 森林 的 高 
校 信息 碎片 化 整合 特征 选择 模型 ,并 对 模型 的 主要 模 
块 进行 分 析 解 读 。 

本 研究 通过 高 校 贫困 生 认 定 这 一 实验 验证 了 该 模 
型 在 高 校 整合 特征 的 选择 上 具有 很 高 的 准确 性 和 精确 
度 ,为 高 校 信息 资源 整合 提供 了 一 种 可 行 的 思路 。 随 
机 森林 虽然 具有 很 好 的 辨识 度 , 但 该 方法 使 得 权 值 大 
的 特征 总 是 被 选中 ,从 而 导致 特征 子 空间 的 多 样 性 降 
低 , 使 得 每 棵 决策 树 之 间 的 相关 性 过 高 ,反而 使 泛 化 误 
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差 变 大 ,因此 后 续 需 要 对 该 算法 进行 改进 ,在 提高 特征 

相关 性 的 同时 ,降低 泛 化 误差 。 
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Abstract: [ Purpose/significance | Facing the trend of fragmentation of university information ，this paper puts for- 


ward the integration process of fragmented university information ，and applies the random forest algorithm to construct the 


feature selection model of information -fragmented integration in universities. | Method/ process | This paper represents the 


development, research status and existing problems of university information integration. Furthermore, in this paper, we 


elaborate the principles and advantages of the random forest algorithm ，and use it to the feature selection model of informa- 


tion fragmented integration process in universities. Finally, we validate the model by using the example of identifying the 


students in the need of financial help. | Result/ conclusion | Random forest algorithm shows higher accuracy and validity 


in the selection of features for integrating university information and therefore provides a new way for the integration of frag- 


mented university information. 
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